Taller introductorio a R
2025-10-27
Una ventaja de R es su gran comunidad que desarrolla mejoras y utilidades que quedan a disposición de forma gratuita.
Estos se difunden como “paquetes”, con su propio nombre, y que contienen funciones, datos u otros para agregar o mejorar funciones de R.
La gran mayoría se alberga en CRAN, otros en servidores como Github.
Para instalar un paquete utilizamos la función install.packages() solo la primera vez que utilicemos ese paquete. Luego de esto queda instalado en nuestro equipo.
Pero para usarlo debemos utilizar otra función llamada library(), que activa el paquete en la sesión actual.
Alternativamente, podemos usar una función de un paquete instalado sin activarlo en la sesión, usando ::. Ejemplo: readr::read_csv(...). Solo es útil cuando es explícito que se use la función de ese paquete y no otra.
Vamos a instalar un paquete útil que se llama janitor y sirve para limpiar datos.
Primero lo instalamos desde CRAN
Una vez instalado se “invoca” o se activa en la sesión para usarlo
Es un concepto en tidyverse para trabajar con datos rectangulares
Flujo de trabajo en ciencia de datos. Wickham & Grolemund, 2023
| ¿Cómo cargar archivos en R? | ||||
| Tipo de archivo | Función | Paquete | Tidyverse | Núcleo |
|---|---|---|---|---|
| .csv | read.csv | base | No | NA |
| .rds | readRDS | base | No | NA |
| .csv | read_csv | readr | Sí | Sí |
| .xlsx/.xls | read_xlsx/read_xls | readxl | Sí | No |
| .sav | read_sav | haven | Sí | No |
| .dta | read_dta | haven | Sí | No |
| .sas | read_sas | haven | Sí | No |
| Planilla Google Sheets | read_sheet | googlesheets4 | Sí | No |
| Paquete | Descripción | Funciones clave |
|---|---|---|
| tibble | Crea la estructura de datos tibble, basada en data.frame pero con mejorar para manipulación de datos en el tidyverse. | tibble() |
| tidyr | Herramientas para manipular la forma de un tibble en formato tidy | pivot_wider(), pivot_longer() |
rename() de dplyr o con la mágica clean_names() de janitor.filter() — del inglés filtrar).arrange() — del inglés organizar).select() — del inglés seleccionar).mutate() — del inglés mutar o transformar).summarise() — del inglés resumir).Wickham & Grolemund, 2023
Todas estas funciones se pueden aplicar de manera agrupada con la función group_by(). Queda mejor cuando la usamos con summarise()
El comando pipe reduce la redundancia de crear demasiados objetos para un fin.
Encadena las funciones una dentro de otra
Existe el pipe de magrittr %>% y el pipe nativo |>
species island bill_length_mm bill_depth_mm
Adelie :152 Biscoe :168 Min. :32.10 Min. :13.10
Chinstrap: 68 Dream :124 1st Qu.:39.23 1st Qu.:15.60
Gentoo :124 Torgersen: 52 Median :44.45 Median :17.30
Mean :43.92 Mean :17.15
3rd Qu.:48.50 3rd Qu.:18.70
Max. :59.60 Max. :21.50
NA's :2 NA's :2
flipper_length_mm body_mass_g sex year
Min. :172.0 Min. :2700 female:165 Min. :2007
1st Qu.:190.0 1st Qu.:3550 male :168 1st Qu.:2007
Median :197.0 Median :4050 NA's : 11 Median :2008
Mean :200.9 Mean :4202 Mean :2008
3rd Qu.:213.0 3rd Qu.:4750 3rd Qu.:2009
Max. :231.0 Max. :6300 Max. :2009
NA's :2 NA's :2
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.700 3.612 4.200 4.267 4.838 6.000
Se crean tres objetos distintos para lograr el resultado
Se crea un solo objeto.
“Trae los datos de pingüinos, LUEGO filtra por año == 2008, LUEGO ordena de menor a mayor según masa corporal, y LUEGO crea una nueva variable transformando la masa de gramos a kilogramos”
Setear algunas opciones del programa en Tools -> Global Options
Usar Rstudio Projects
Vamos a importar un dataset real, lo vamos a limpiar y luego a transformar.
Repetiremos el ejercicio de la clase, ahora otras variables que no incluimos en el ejercicio de la clase.
Introducción a R y Rstudio